Spark SQL

Spark SQLとHive、Hadoop上でのクエリ処理性能を比較してみた - ZDNet Japan（2016-01-20）

クエリ処理を行うSpark SQLは、Hadoop HDFS上のファイル（CSV、JSON,Parquet、ORC、Avroなど）、Hiveテーブル、RDBなど、さまざまなデータに標準SQLでアクセスできるという特徴がある。また、Spark StreamingやMLlibと連携して、ストリーム処理、機械学習処理も標準SQLで利用可能にする。

このSpark SQLは、スループットと低レイテンシを両立し、MapReduce上で動作するクエリ処理ソフトApache Hiveより高速だと言われている。